智能论文笔记

我们考虑使用最新的MultieRlex数据集中考虑法律主题分类中的零射击跨语性转移。由于原始数据集包含并行文档，这对于零拍传输不现实是不现实的，因此我们开发了一个没有并行文档的数据集的新版本。我们使用它来表明，基于翻译的方法非常优于多绘制预训练的模型，这是多曲线的最佳先前的零弹性传输方法。我们还开发了一种双语的教师零摄像转移方法，该方法利用了目标语言的其他未标记文档，并且比直接在标记的目标语言文档上进行微调的模型更好。

translated by 谷歌翻译

Proteus: A Self-Designing Range Filter

Eric R. Knorr , Baptiste Lemaire , Andrew Lim , Siqiang Luo , Huanchen Zhang , Stratos Idreos , Michael Mitzenmacher

分类：机器学习

2022-06-30

我们介绍了Proteus，这是一种新型的自设计近似范围滤波器，它根据采样数据进行配置，以便针对给定的空间要求优化其误报率（FPR）。 Proteus统一了最先进的范围过滤器的概率和确定性设计空间，以在较大的用例中实现稳健的性能。 Proteus的核心是我们的上下文前缀FPR（CPFPR）模型 - 在其设计空间中基于前缀过滤器的FPR的正式框架。我们从经验上证明了模型和Proteus在合成工作负载和现实世界数据集上优化的能力的准确性。我们进一步评估了RockSDB中的Proteus，并表明它能够将端到端的性能提高到5.3倍，而不是更脆的先进方法，例如Surf和Rosetta。我们的实验还表明，与端到端的性能增长相比，建模的成本并不显着，并且Proteus对工作负载转移的稳定性。

translated by 谷歌翻译

Mikolov等人。（2013A）观察到，连续的单词（CBOW）Word Embeddings倾向于表现不佳的跳过（SG）嵌入，并在随后的作品中报告了这一发现。我们发现这些观察结果不是通过他们的培训目标的基本差异，但更有可能在官方实施，Word2Vec.c和Gensim等流行图书馆中的错误负面采样CBY实施。我们展示在纠正CBY渐变更新中的错误后，可以从各种内在和外在任务中学习与SG完全竞争的CBY Word Embeddings，同时培训速度速度较快。

translated by 谷歌翻译